INTERVALOS DE CONFIANZA PARA POBLACIONES NORMALES
Intervalos de confianza para la media
Varianza poblacional conocida
Cuando conocemos la varianza poblacional utilizamos la distribución normal (Z)
Población |
Muestra 1 |
|
|
|
|
Búsqueda de valor crítico en tablas:
Según la tabla que utilizamos debemos buscar los valores críticos de acuerdo a la siguiente gráfica de la distribución normal (Z):
Intervalo de confianza
Valor crítico para prueba de Hipótesis: (Una cola)
Determinación del Valor-p: (Dos colas)
Valores críticos: (Dos colas)
P Tamaño de muestra para un error ε :
Varianza poblacional desconocida
Población |
Muestra 1 |
|
|
|
|
|
|
Cuando no conocemos la población debemos usar la distribución t-student
Búsqueda de valor crítico en tablas:
Intervalo de confianza para varianza
Media poblacional conocida
Varianza poblacional desconocida
Intervalo de confianza para la diferencia de medias en poblaciones dependientes
Intervalo de confianza para el cociente de varianzas
Medias poblacionales conocida
Medias poblacionales desconocidas
INTERVALOS DE CONFIANZA PARA CUALQUIER POBLACIÓN
INTERVALOS DE CONFIANZA APROXIMADO PARA LA MEDIA
Varianza poblacional conocida
Muestra 1 |
|
= |
|
Varianza poblacional desconocida
Muestra 1 |
= |
= |
=n |
INTERVALO DE CONFIANZA PARA LA PROPORCIÓN
Muestra 1 |
|
n |
Tamaño de la muestra para un error ε y un nivel de confianza 100 (1-α)%:
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES
Muestra 1 |
Muestra 2 |
|
|
|
|
CONSTRASTES DE HIPÓTESIS PARA POBLACIONES NORMALES
CONTRASTE DE HIPÓTESIS PARA LA MEDIA
Varianza población conocida
Hipótesis nula |
Valor del estadístico bajo |
|
EC =Z = |
Hipótesis alternativa |
Criterios de rechazo |
|
|
|
|
|
|
|
|
Población |
Muestra 1 |
|
|
|
|
Varianza poblacional desconocida
Población |
Muestra 1 |
|
|
|
|
|
|
Hipótesis nula |
Valor del estadístico bajo |
|
EC =t = |
Hipótesis alternativa |
Criterios de rechazo |
|
|
|
|
|
|
|
|
|
|
CONTRASTE DE HIPÓTESIS PARA LA VARIANZA
Varianza población conocida
Hipótesis nula |
Valor del estadístico bajo |
|
EC = = |
Hipótesis alternativa |
Criterios de rechazo |
|
|
|
|
|
|
|
|
Varianza poblacional desconocida
Hipótesis nula |
Valor del estadístico bajo |
|
EC = = |
Hipótesis alternativa |
Criterios de rechazo |
|
|
|
|
|
|
|
|
CONTRASTE DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS EN POBLACIONES INDEPENDIENTES
Varianzas poblacionales conocidas
Hipótesis nula |
Valor del estadístico bajo |
|
EC =z = |
Hipótesis alternativa |
Criterios de rechazo |
|
|
|
|
|
|
|
|
Muestra 1 |
Muestra 2 |
|
|
|
|
|
|
Varianzas poblacionales desconocidas pero iguales
Hipótesis nula |
Valor del estadístico bajo |
|
EC =t =
|
Hipótesis alternativa |
Criterios de rechazo |
|
|
|
|
|
|
|
|
Muestra 1 |
Muestra 2 |
|
|
|
|
|
|
Varianzas poblacionales desconocidas y distintas
Hipótesis nula |
Valor del estadístico bajo |
|
EC =t = |
Hipótesis alternativa |
Criterios de rechazo |
|
|
|
|
|
|
|
|
CONTRASTE DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS EN POBLACIONES DEPENDIENTES
Hipótesis nula |
Valor del estadístico bajo |
|
EC =t = |
Hipótesis alternativa |
Criterios de rechazo |
|
|
|
|
|
|
|
|
CONSTRASTES DE HIPÓTESIS
CONTRASTES DE HIPÓTESIS PARA PROPORCIONES
CONTRASTE DE HIPÓTESIS PARA LA PROPORCIÓN
Hipótesis nula |
Valor del estadístico bajo |
|
EC =z = |
Hipótesis alternativa |
Criterios de rechazo |
|
|
|
|
|
|
|
|
CONTRASTE DE HIPÓTESIS PARA LA DIFERENCIA DE PROPORCIONES
Hipótesis nula |
Valor del estadístico bajo |
|
EC =z = |
Hipótesis alternativa |
Criterios de rechazo |
|
|
|
|
|
|
|
|
TRASTES D
ANÁLISIS DE VARIANZA (ANOVA)
En un experimento de un factor, las mediciones (observaciones) se hacen de a grupos independientes de muestras y b es la cantidad de mediciones en cada muestra. Se habla a tratamientos, cada uno con b repeticiones o b réplicas.
Los resultados de un experimento de un factor se acostumbra presentarlos en una tabla con a renglones y b columnas.
Tratamiento 1 |
|
|
Tratamiento 2 |
|
|
… |
… |
… |
Tratamiento a |
|
|
La media de las mediciones en el renglón j se denota , se les llama medias de grupo, medias de tratamientos o medias de renglón. Se tiene
(1)
La gran media o media general es la media de las mediciones de todos los grupos y se denota :
(2)
VARIACIÓN TOTAL, VARIACIÓN DENTRO DE TRATAMIENTOS
Y VARIACIÓN ENTRE TRATAMIENTOS
La variación total, que se denota V, se define como la suma de los cuadrados de las desviaciones de cada medición respecto a la gran media .
(3)
(4)
(5)
(6)
(7)
La segunda suma que aparece en el lado derecho de las ecuaciones (5) y (6) es la variación entre los tratamientos (ya que se trata de los cuadrados de las desviaciones de las medias de los tratamientos , respecto a la gran media ) y se denota . Por tanto,
8)
Por tanto, las ecuaciones (5) y (6) se pueden expresar como:
Variación |
Grados de libertad |
Cuadrado medio |
F |
Entre tratamientos
|
|
|
|
Dentro de tratamientos
|
|
|
|
Total
|
|
|
FUENTES DE VARIACIÓN |
SUMA DE CUADRADOS |
GRADOS DE LIBERTAD |
CUADRADOS MEDIOS |
ESTADÍSTICO |
TRATAMIENTOS |
SCTR |
I-1 |
CMTR |
F=CMTR/CME |
ERROR |
SCE |
N-1 |
CME |
|
TOTAL |
SCT |
N-1 |
|
|
Hipótesis nula |
Valor del estadístico bajo |
|
EC =F = |
Hipótesis alternativa |
Criterios de rechazo |
son iguales |
|
|
|
Distribución muestral si es verdadera
Distribución muestral si es falsa
MODIFICACIONES PARA NÚMEROS DISTINTOS DE OBSERVACIONES
En casi de que los tratamientos 1,…, a tengan número distintos de observaciones iguales a los resultados anteriores pueden modificarse fácilmente. Así se obtiene
Variación |
Grados de libertad |
Cuadrado medio |
F |
Entre tratamientos
|
|
|
|
Dentro de tratamientos
|
|
|
|
Total
|
|
|
COMPARACIONES MÚLTIPLES: MÉTODO DE BONFERRONI
Hipótesis nula |
Valor del estadístico bajo |
|
EC = |
Hipótesis alternativa |
Criterios de rechazo |
|
|
MO
REGRESIÓN Y CORRELACIÓN
DELO DE REGRESIÓN LINEAL SIMPLE
RECTA DE MÍNIMOS CUADRADOS
La recta de regresión de mínimos cuadrados de y sobre x
RECTA DE MÍNIMOS CUADRADOS EN TÉRMINOS DE VARIANZAS Y COVARIANZAS MUESTRALES
Las varianzas y covarianzas muestrales de las observaciones de , y están dadas por
Deducciones:
Deducciones:
Deducción:
Para encontrar los valores de a i b realizamos las derivadas parciales con respecto de a y b:
y las igualamos a cero. Así obtenemos el sistema de ecuaciones siguiente, conocido como un sistema de ecuaciones normales:
la solución del sistema de ecuaciones es:
Otras ecuaciones:
La recta de mínimos cuadrados para a través del punto , denominado el centroide o centro de gravedad de los datos.
La pendiente b de la recta de regresión es independiente del origen de coordenadas. Esto quiere decir que si hacemos la transformación (comúnmente llama traslación de ejes) dada por
donde h y k son constantes arbitrarias, entonces b también está dada por
b es invariable. Debemos notar que a, que determina el intercepto.
La covarianza a diferencia de la varianza, puede ser negativa.
La recta de regresión de mínimos cuadrados de y sobre x
La recta de regresión de mínimos cuadrados de x sobre y
Ecuaciones simultaneas para encontrar los valores de y :
Comparando las rectas de regresión:
de Y en X
de X en Y
Los coeficientes de regresión b y d verifican
El número es denominado coeficiente de determinación.
Significa que es paralela al eje X. es paralela al eje Y y perpendiculares entre si en el punto .
Las rectas tienden a ser perpendiculares
Las rectas tienden a ser coincidentes.
PARTICIÓN DE LA VARIANZA DE Y,
Sea un valor observado de la variable e el valor en la ecuación de regresión cuando .
La varianza de Y es el número
Observamos que en la figura tenemos:
VARIACIÓN EXPLICADA Y NO EXPLICADA
Esta terminología surge, debido a que las desviaciones con respectos a la recta de regresión, se comportan de una manera aleatoria o impredecible, debido a que es aleatorio. En tanto que las desviaciones de la recta de regresión con respecto al eje X se explican por la recta de regresión de Y en X, ya que sólo depende de los que están sobre la recta.
Variación total (SCT) → SQT (catalán)
Se define como la suma de los cuadrados de las desviaciones de Y respecto a la media .
Variación no explicada (SCE) → SQE (catalán)
Las desviaciones tienen un patrón aleatorio o impredecible.
Variación explicada (SCR) → SQR (catalán)
Se denomina así porque tienen un patrón definido.
SCT (Variación total)=suma de cuadrados total, refleja la variación de los valores de Y con respecto a la media .
SCE (Variación no explicada)=suma de cuadrados de los errores. Es una media del error al utilizar la ecuación de regresión estimada para estimar los valores de la variable dependiente en los elementos de la muestra.
SCR (Variación explicada)= suma de cuadrados debido a la regresión, refleja la cantidad de variación de los valores de Y explicada por la recta de regresión.
Si divide por n, (el tamaño de la muestra), entonces se dice que la "varianza de los es igual a la varianza no explicada o residual más la varianza explicada por la recta de regresión.
COEFICIENTE O ÍNDICE DE CORRELACIÓN
Coeficiente de correlación muestral:
COEFICIENTE DE DETERMINACIÓN
La medida más importante de la bondad de ajuste es el coeficiente de determinación. Este nos indica el grado de ajusto de la recta de regresión a los valores de la muestra. Se define como el cociente de la variación explicada entre la variación total se le llama coeficiente de determinación.
Conclusiones:
Si hay cero variación explicada (es decir, si la variación total es solo variación no explicada), ese cociente es cero. Denota la inexistencia de relación entre las variables X e Y.
Si hay cero variación no explicada (es decir, si la variación total es solo variación explicada), este cociente es 1. El ajuste es perfecto, es decir, cuando todos los puntos se encuentran sobre la recta de regresión.
En los demás casos este cociente se encuentra entre 0 y 1; como siempre es no negativo, se denota . Explica la proporción de variabilidad de los datos que queda explicada por el modelo de regresión, con más próximo a la unidad sea, mejor es el ajuste.
El 100% de la varianza total es igual a:
de varianza no explicada + de la variación explicada por la recta de regresión.
Consecuencias:
1) De la identidad se concluye que . Entonces
Si r>0 se dice que existe correlación directa positiva, ambas variables aumentan (disminuyen) simultáneamente.
Si r<0, se dice que existe una correlación inversa negativa, mientras los valores de una variable aumenta, los de la otra disminuyen y viceversa.
Si r=0, se dice que no hay correlación entre X e Y. Por lo tanto no hay regresión de Y en X.
2) , sólo si, SCE=0, o sólo si, para los n datos de la muestra.
Esto significa que todos los están en la recta de regresión. En este caso se dice se dice que hay una correlación perfecta entre X e Y.
Si r=1, se dice que hay un correlación perfecta positiva.
Si r=-1, se dice que hay una correlación perfecta negativa.
3) , sólo si, SCR=0, sólo si, para los n datos de la muestra.
Es decir no cambia cuando , o todas la predicciones son iguales a una misma constante. En este caso no hay correlación ni regresión.
4) El coeficiente de determinación , es pues una medida de la proximidad del ajuste de la recta de regresión. Cuando mayor sea el valor de , mejor será el ajuste y más útil la recta regresión como instrumento de predicción. ( indica que de 100 pares de puntos 90 están en la recta de regresión y 10 fuera de la recta de regresión).
RASTES DE HIPÓTESIS PARA